統計學是一門透過蒐集資料與分析資料來認識現象的科學。在現實生活中,我們往往無法調查每一個對象,因此必須透過「抽樣」以偏概全,達成科學推論。
1. 統計調查的核心術語
- 全面調查(普查): 對每一項調查對象都進行調查的方法。
- 抽樣調查(Sampling Survey): 从总体中抽取一部分个体进行调查,并以此为依据对总体情况作出估计和推断。
- 總體(Population): 調查對象的全部。
- 個體(Individual): 組成總體的每一項調查對象。
- 樣本(Sample): 從總體中抽取的那部分個體。
- 樣本容量: 樣本中包含的個體數。
2. 資料取得的多種途徑
除了直接透過調查(如人口普查)取得資料外,我們還可透過:
- 試驗: 在統計學中,安排試驗的學問稱為「試驗設計」。
- 觀察: 在自然狀態下收集資訊。
- 查詢: 取得前人已收集完備的資料,這種資料稱為二手資料。
樣本具有隨機性,因此根據樣本估計總體時,所作出的統計推論結果具有或然性(即可能產生誤差),這是在運用統計結果解釋實際問題時需特別留意的。
比例公式:$\frac{n}{N} = \frac{\text{層樣本量}}{\text{各層總體量}}$
1. 收集多項式的各項:一個 $x^2$ 正方形、三個 $x$ 矩形條,以及兩個 $1\times1$ 個單位正方形。
2. 開始將它們在幾何上進行拼接。
3. 它們完美地形成了一個更大的連續長方形!寬度為 $(x+2)$,高度為 $(x+1)$。
問題 1
為了了解某地參加電腦水平測試的 5,000 名學生的成績,從中抽取了 200 名學生進行調查分析。在此問題中,被抽取的 200 名學生是( )。
A. 總體
B. 個體
C. 樣本
D. 樣本量
正確!總體是 5,000 名學生的成績,而被抽取的 200 名學生的成績構成了樣本。
錯誤。200 名學生是總體的子集,也就是樣本。樣本量指的是具體的數值 200。
問題 2
一家公司共有 $N$ 名員工,下設若干部門,須採用樣本量比例分配的分層隨機抽樣法,從全體員工中抽取樣本量為 $n$ 的樣本。若某部門有 $m$ 名員工,則從該部門抽取的員工人數是( )。
$\frac{m}{n} \cdot N$
$\frac{n}{N} \cdot m$
$\frac{m}{N} \cdot m$
$n - m$
正確!根據分層隨機抽樣的比例分配原則,抽樣比為 $\frac{n}{N}$,該部門應抽取人數為 $m \times \frac{n}{N}$。
錯誤。分層隨機抽樣需確保每層內的抽樣比例與總體抽樣比例一致,即 $\frac{\text{層樣本量}}{m} = \frac{n}{N}$。
問題 3
下列調查中,最適合採用抽樣調查的是( )。
調查一個縣各村的糧食播種面積
了解一批玉米種子的發芽率
某企業調查員工的健康體檢表
某班級學生的視力普查
正確!了解玉米種子的發芽率具有破壞性,無法進行全面調查,必須採用抽樣調查。
錯誤。若調查具有破壞性(如種子發芽率、燈泡壽命)或總體過大,應選擇抽樣調查。
問題 4
某地區的公共衛生部門調查 200 名學生的吸煙情況,58 人回答「是」,你能否估計該地區吸煙學生所佔的百分比?
29%
58%
20%
無法估計
正確!使用樣本的頻率來估計總體的百分比:$58 \div 200 = 0.29 = 29\%$。
錯誤。應使用樣本次數除以樣本容量得到頻率,再以此估計總體占比。
問題 5
簡單隨機抽樣與分層隨機抽樣的主要區別在於( )。
樣本容量的大小不同
是否每個個體入樣的機率相等
是否根據個體差異進行分組抽樣
資料處理的方法完全不同
正確!分層隨機抽樣適用於總體內部差異明顯的情況,透過分層以減少抽樣誤差。
注意:兩者每個個體被抽中的機率皆相同,差別在於分層抽樣利用了總體的輔助資訊(層間差異)。
問題 6
對於 $m$ 個資料 $x_i$ 平均數為 $\bar{x}$,$n$ 個資料 $y_j$ 平均數為 $\bar{y}$,合併後的總平均數公式正確的是( )。
$\frac{\bar{x} + \bar{y}}{2}$
$\frac{m\bar{x} + n\bar{y}}{m+n}$
$\frac{\bar{x} + \bar{y}}{m+n}$
$\frac{m+n}{\bar{x} + \bar{y}}$
正確!這是加權平均的概念,也是分層抽樣中估計總平均值的核心公式。
錯誤。不能直接將平均數相加除以 2,必須考慮每一組資料的樣本量(權重)。
問題 7
關於抽樣調查的「或然性」,下列說法正確的是( )。
只要方法科學,結論就是絕對真理
抽樣調查的結果毫無參考價值
結論是基於樣本推論的,存在隨機性風險
普查的結果也會產生或然性錯誤
正確!統計推論的結果具有或然性,是因為樣本的選擇具有隨機性。
錯誤。或然性是統計學的固有屬性,指結果帶有一定的機率性而非必然性。
問題 8
下列調查途徑屬於取得「二手資料」的是( )。
透過體育課實測學生的 100 公尺成績
在圖書館查閱《統計年鑑》中的人口資料
設計問卷調查路人的消費習慣
透過化學實驗記錄反應時間
正確!查閱他人已蒐集並整理完備的資料,即是取得二手資料。
錯誤。二手資料是指非由調查者直接透過原始觀察或實驗獲得的資料。
問題 9
在分層隨機抽樣中,若總體容量為 1,000,樣本容量為 100,某層有 250 個個體,則該層應抽取的個體數為( )。
10
25
50
100
正確!抽樣比為 $100/1000 = 0.1$,該層應抽 $250 \times 0.1 = 25$ 個。
錯誤。請使用比例公式:層樣本量 = (樣本容量 ÷ 總體容量)× 層總體量。
問題 10
簡單隨機抽樣中,每個個體入樣的機率是( )。
1
$n/N$
$1/n$
$1/N$
正確!在樣本容量為 $n$,總體容量為 $N$ 的簡單隨機抽樣中,每個個體被抽中的機率皆為 $n/N$。
錯誤。雖然是隨機抽樣,但每個個體被選中的機率取決於樣本規模與總體的比值。
挑戰:統計方案設計與推論
閱讀材料:市政府計劃採用階梯電價,透過 200 戶居民的抽樣資料(範圍 50~350 kWh)決定標準。目標是讓 75% 的居民處於第一檔,20% 處於第二檔,其餘 5% 處於第三檔。
1. [簡答] 證明分層抽樣總平均數公式:$\frac{\sum_{i=1}^m x_i + \sum_{j=1}^n y_j}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$
證明:根據平均數定義可知,$\sum_{i=1}^m x_i = m\bar{x}$ 且 $\sum_{j=1}^n y_j = n\bar{y}$。
將其代入左式分子中:
左式 $= \frac{m\bar{x} + n\bar{y}}{m+n} = \frac{m\bar{x}}{m+n} + \frac{n\bar{y}}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$。
證畢。此公式說明總平均數是各層平均數的加權平均值。
將其代入左式分子中:
左式 $= \frac{m\bar{x} + n\bar{y}}{m+n} = \frac{m\bar{x}}{m+n} + \frac{n\bar{y}}{m+n} = \frac{m}{m+n}\bar{x} + \frac{n}{m+n}\bar{y}$。
證畢。此公式說明總平均數是各層平均數的加權平均值。
2. [寫作任務] 請你為「全校學生體重情況調查」設計一個方案(約 500 字)。
參考方案要點:
1. 明確目標: 了解全校學生的平均體重、肥胖率分布。
2. 確定總體與個體: 全校所有學生為總體,每位學生為個體。
3. 選擇抽樣方法: 考慮到不同年級、性別的發育差異顯著,建議採用分層隨機抽樣。以年級(高一、高二、高三)及性別作為分層標準。
4. 確定樣本容量: 根據人力成本,選取 10% 的學生(例如 300 人)。
5. 實施資料收集: 使用實測法(體重秤記錄),而非自報(二手資料可能存在偏差)。
6. 分析與推論: 計算樣本平均數與標準差,繪製頻率分布直方圖,並根據百分位數定義「超重」標準。
1. 明確目標: 了解全校學生的平均體重、肥胖率分布。
2. 確定總體與個體: 全校所有學生為總體,每位學生為個體。
3. 選擇抽樣方法: 考慮到不同年級、性別的發育差異顯著,建議採用分層隨機抽樣。以年級(高一、高二、高三)及性別作為分層標準。
4. 確定樣本容量: 根據人力成本,選取 10% 的學生(例如 300 人)。
5. 實施資料收集: 使用實測法(體重秤記錄),而非自報(二手資料可能存在偏差)。
6. 分析與推論: 計算樣本平均數與標準差,繪製頻率分布直方圖,並根據百分位數定義「超重」標準。
3. [簡答] 有人說:「抽樣調查比普查節省人力物力,且結果差不多,所以抽樣調查永遠更可取。」你認為這種說法有道理嗎?
參考答案:
這種說法有一定道理,但過於絕對。
(1) 優勢: 抽樣調查確實具有經濟性、及時性,且在具有破壞性(如種子發芽率試驗)或總體無限大時是唯一選擇。
(2) 局限: 抽樣調查存在抽樣誤差,結論具有「或然性」。對於需要極高精度、涉及國家重大決策(如人口普查)或法律要求必須全面覆蓋的情況,普查仍不可替代。
(3) 結論: 應根據調查目的、成本及總體規模靈活選擇。
這種說法有一定道理,但過於絕對。
(1) 優勢: 抽樣調查確實具有經濟性、及時性,且在具有破壞性(如種子發芽率試驗)或總體無限大時是唯一選擇。
(2) 局限: 抽樣調查存在抽樣誤差,結論具有「或然性」。對於需要極高精度、涉及國家重大決策(如人口普查)或法律要求必須全面覆蓋的情況,普查仍不可替代。
(3) 結論: 應根據調查目的、成本及總體規模靈活選擇。
✨ 核心要點
總體個體分清晰,隨機抽樣保公平。分層比例不能錯,樣本估計帶或然!
💡 分層關鍵點
分層抽樣的核心在於各層內個體差異小,層與層之間差異大。
💡 樣本容量注意
樣本容量 $n$ 越大,通常抽樣誤差越小,但成本也越高。
💡 普查 vs 抽樣
具有破壞性的試驗(如燈泡壽命、糧食發芽率)絕對不能使用全面調查。
💡 資料清洗
取得二手資料後,必須檢查資料來源是否權威、時效性如何,進行必要的資料清洗。
💡 或然性理解
抽樣得出的「該地區吸煙率 29%」是一個估計值,不代表總體一定是 29%。